今天來介紹一下深度學習的概念,框架跟之前介紹的式子一樣,找 $h^* = \mathop{\arg\min}{h \in \mathcal{H}} \sum{i=1}^N \lambda(h, (x_i, y_i))$,其中 $h \in \mathcal{H}$,然而 $\mathcal{H}$ 到底長怎樣呢?之前還沒有好好定義。
在深度學習的領域裡,常會聽到模型架構(Model Architecture),像是 AlexNet、ResNet-17、UNet 等各式各樣的模型架構,當我們定義好一個模型架構,其實就是定義一個假設集合。
每個模型是由層(Layer)所堆疊組合起來,像是卷積層(Convolution)、最大池化層(Max Pooling)、扁平層(Flatten)、批量標準化層(Batch Normalization)等許許多多不同的層,每個層其實就是一個函數 $f_{\theta_l}^{[l]}(x): \mathbb{R}^N \rightarrow \mathbb{R}^M$,然後堆疊起來就是一個模型,每個函數都有對應的參數(係數等)$\theta_l$。我們將 $f \circ g$ 定義成 $f(g(x))$,則最後模型 $F_\theta = f^{[N]} \circ f^{[N-1]} \circ \cdots \circ f^{[1]}$,其中 $\theta = \left{\theta_1, \ldots, \theta_N \right}$,當定義好一個架構後,我們就可以用之前提到的最佳化演算法來找到最好的 $\theta$ 使得 $\lambda$ 最小,也就是我們要的 $h^*$ 了。